Карань Анна |
|||
Главная | О себе | Учеба | ФББ МГУ |
Нуклеотидные банки данных
Задание 1
В первом задании необходимо охарактеризовать качество сборки какого-нибудь генома эукариотического организма. Была выбрана тихоходка, по причине своей милости и популярности.
Рис.1. Преимущества тихоходки
При введении в поиск NCBI Tardigrada выдается лишь 2 результата для одного вида, все описания приведены в Таблицах 1 и 2.
Таблица 1. Общая информация о секвенировании тихоходки Hypsibius dujardini | |
Число сборок генома | Число проектов по секвенированию организма / число образцов |
2 | 2/2 |
Таблица 2. Информация об одной из сборок тихоходки Hypsibius dujardini | ||
Описание образца (BIOSAMPLE) | Описание проекта (BIOPROJECT) | Число контигов/скэффолдов сборки |
Образец: SAMN04435392 ID: 4435392 Имя образца: Hypsibius dujardini "curated" геном Штамм: Sciento Возраст: различный Пол: и мужской, и женский Ткань: все тело |
Проект: PRJNA309530 ID: 309530 Тип данных: Секвенирование и сборка генома Охват и чистота образца: Отдельный организм Организм: Hypsibius dujardini [Taxonomy ID: 232323] Eukaryota; Metazoa; Ecdysozoa; Tardigrada; Eutardigrada; Parachela; Hypsibiidae; Hypsibius; Hypsibius dujardini Публикации: Delmont TO et al., "Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies.", PeerJ, 2016 Mar 29;4:e1839 Представление: Дата регистрации - 3-Марта-2016, Университет Чикаго Актуальность: Эволюция |
15443/14960 |
Tаблица контигов/скэффолдов | N50 и L50, самый длинный и самый короткий контиг | Последовательность одного из контигов |
Список контигов | Скэффолд N50 - 17214 Скэффолд L50 - 3119 Контиг N50 - 16753 Контиг L50 - 3224 Самый короткий контиг - 2000 Самый длинный контиг - 283682 |
Пример последовательности контига |
Задание 2
В этом задании нужно описать десять ключей, используемых в таблицах особенностей. Информация о ключах былах взята с сайта INSDC.
Примеры были получены при поиске на сайте NCBI.
Таблица 2. Информация об одной из сборок тихоходки Hypsibius dujardini | ||
Ключ | Описание | Пример |
centromere | Участок ДНК, который соответсвует региону, где хроматиды соединяются, и формируется кинетохор | complement(26968..32592) /locus_tag="TTRE_0000382201" |
exon | Регион генома, который кодирует участок сплайсируемой мРНК, рРНК и тРНК, может содержать 5'UTR, все CDSs и 3'UTR | 50533030..50533191 /gene="LOC102633655" /note="Derived by automated computational analysis using gene prediction method: Gnomon. Supporting evidence includes similarity to: 3 Proteins" /pseudo |
sig_peptide | Последовательность сигнального пептида, кодирует последовательность для N-терминального домена секретируемого белка, этот домен вовлечен в присоединение формируещегося полипептида к последовательности, направляющей к мембране в дальнейшем. |
/organism="Anolis carolinensis"
30..92 /gene="IL10RB" |
5'UTR | 1)Регион на 5' конце транскрипта (перед инициаторным кодоном), который
не транслируется в белок. 2)Регион на 5' конце генома РНК-вирусов (предшествует первому инициаторному кодону), который не транслируется в белок |
/organism="Mus musculus" /chromosome="14" 1..28 |
repeat_region | Регионы генома, содержащие повторяющиеся элементы. |
/organism="Escherichia coli str. K-12 substr. MG1655" 5565..5669 /note="RIP1 (repetitive extragenic palindromic) element; contains 2 REP sequences and 1 IHF site" |
ncRNA | Не белок кодирующий ген, отличающися от рибосомальной РНК и транспортной РНК, функциональные молекулы которых являются РНК транскрипты | join(191287535..191288036,191288135..191288722) /ncRNA_class="lncRNA" /gene="Gm37168" /product="predicted gene, 37168" |
C_region | Консервативный регион легкой и тяжелой цепей иммуноглобулина, T-клеточных рецепторов α, β, γ цепей, включает один или больше экзонов, в зависимости от цепи |
/organism="Rattus norvegicus" 406..726 /note="constant region" |
STS | Целевой сайт, короткая, неповторяющаяся последовательность, являющаяся ориентиром при картировании генома, может быть обнаружена с помощью ПЦР, регион генома может быть картирован путем сопоставления порядка серии STSs |
/organism="Escherichia coli str. K-12 substr. MG1655" 1..286 /gene="yebT" |
polyA_site | Сайт РНК транскрипта, к которому добавляются остатки аденина при пост-транскрипционном полиаденилировании |
/organism="Homo sapiens" 983 |
V_region | Вариабельный регион легкой и тяжелой цепей иммуноглобулина, T-клеточных рецепторов Α, Β, Γ цепей, последовательности для вариабельной амино терминальной части, может состоять из V-, D-, J- сегментов и N-региона |
/organism="Mus musculus" /chromosome="14" 95..421 /product="immunoglobin kappa chain V-J region" |
Задание 3
В этом задании необходимо описать состояние дел в одном из массовых геномных проектов.
Число крохотных микрооорганизмов, живущих в организме человека, значительно больше,
чем число самих человеческих клеток. В попытке каталогизировать микроорганизмы в организме человека,
Проект Микробиома человека (Human Microbiome Project - HMP) собрал образцы от 242 здоровых добровольцев из США и ткани из 15
участков тела у мужчин и 18 у женщин.
HMP проект - попытка более 200 исследователей и более чем 80 научно-исследовательских интститутов (главная,
координирующая организация - (NIH) Национальный иститут здоровья, США, Мэриленд, округ Монтгомери, Бетесда)
за 5 лет создать первый опорный каталог микробного разнообразия в организме человека.
Полученнные 5 терабайт геномных данных, охватывающие более 5 миллионов генов, будут полезны для
дальнейших исследований в области метагеномики.
Ссылка на сайт проекта.
Ссылка на проект на сайте лилидрующей организации NIH .
В HMP планировалось секвенировать, или собрать из общедоступных источников, в общей сложности 3000
эталонных геномов, выделенных из участков человеческого тела.
Информация, полученная от эталонных геномов, поможет в таксономическом определении и функциональной
аннотации 16s рРНК и метагеномной wgs последовательности, соответственно из метагеномных образцов.
Первая фаза HMP (2007-2012) имела 7 инициатив, направленных на развитие наборов данных
метагеномики и вычислительных средств для характеристики микробиомов у здоровых взрослых людей и
в случае конкретных микробиом-ассоциированных заболеваний:
1) Разработка опорного набора микробных геномов и предварительная характеристика микробиома человека.
Эта инициатива начинается с секвенирования 600 геномов и культивируемых, и некультивируемых бактерий,
а также нескольких небактериальных геномов. В сочетании с существующими и другими планируемыми сейчас
проектами общая спправочная коллекция должна достигать более 1000 геномов.
Инициатива будет продолжаться как метагеномный анализ, чтобы охарактеризовать сложность микробных
сообществ на отдельных участках тела, а также определить наличие ядра микробиома на каждом участке.
Будет проведен анализ 16s рРНК.
2) Выяснение отношений между болезнью и изменением в человеческом микробиоме.
Вторая инициатива включает в себя набор демонстрационных проектов по выделению взаимосвязи между
здоровьем человека и изменениями в человеческом микробиоиме.
3) Разработка новых технологий для анализа геномов.
Возможности секвенировать весь геном сейчас ограничены лишь группой культивируемых в лаборатории
микробов. Чтобы расширить эти возможности, необходимы новые методы для некультивируемых микроорганизмов.
4) Разработка новых инструментов для компьютерного анализа.
Наборы данных, полученные при метагеномном секвенировании, очень большие и сложные, требующие новых способов
анализа.
5) Создание центра анализа данных и координации
Ресурс, где можно будет найти всю информацию о проекте.
6) Создание репозитариев исследований
7) Оценка мультигеномных данных в понимании роли человеческого микробиома в здоровом и патологическом
состоянии организма.
Вторая фаза HMP (2013-2015) сфокусирована на одной инициативе по созданию первых в истории
интегрированных данных биологических свойств и микробиома, и хозяина с ипользованием мультигеномных
технологий
Ссылка на последнюю статью по проекту.
На 2016 год в базе проекта находятся 4767 геномов, но не все секвенированы именно в рамках этого проекта.
Задание 4
В этом задании необходимо составить таблицу митохондриальных генов
одного из организмов указанного таксона, в моем случае Rhodophyta.
И как исследуемый организм я выбрала Cyanidioschyzon merolae, её геном был первым полным секвенированным
геномом водоросли.
![]()
Рис.2.Cyanidioschyzon merolae |
![]()
Рис.3.Рядом 2 особи Cyanidioschyzon merolae, |
Обилие фотографий (Рис. 2, 3), демонстрирующих её деление, объясняется использованием этой водоросли для изучения деления, так как
клеточной стенки у них нет.
Полные митохондриальные геномы могут быть получены при таком запросе:
complete[TI] AND gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN] |
Однако и такой запрос выдает верный результат:
gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN] |
так как всего находок 2 (Genbank) и обе - полные митохондриальные геномы.
А если искать по RefSeq, с помощью такого запроса:
refseq[filter] AND complete[TI] AND gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN] |
то лишь 1 одна находка.
Файл excel со списком митохондриальных генов Cyanidioschyzon merolae
На первом листе - исходный список по всем генам, отсортированный по порядку следования в геноме,
и таблица с диаграммой, отражающей абсолютное количество генов различного типа в митохондриальном геноме
изучаемого вида (Рис.4).
Рис.4. Распределение генов в митохондриальном геноме Cyanidioschyzon merolae
Задание 5
В данном задании необходимо заполнить таблицу размеров геномов.
Таблица 3. Размеры геномов в разных систематических группах организмов | |||
Минимальный | Типичный | Максимальный | |
Вироиды | 220 пн, вирус желтых рисовых пятнышек (RYMV, rice yellow mottle sobemovirus) (ссылка) | 246-467 пн (ссылка на статью) | |
Вирусы, бактериофаги | Porcine circovirus, 1,759 (ссылка) | 104 | Pandoravirus salinus, 2,400,000 пн. (ссылка) |
Бактерии, археи | Mycoplasma genitalium, 580,000 пн (Альбертс, МБК) | 106 - 107 пн (Альбертс, МБК) | Bradhyrhizobium japonicum, 9,200,000 пн (ссылка) |
Эукариоты | Encephalitozoon intestinalis, 2,250,000 | Разброс у эукариот очень большой. Средним можно назвать - 109 | Amoeba dubia, 670,000,000,000 (ссылка) |
Рис.5. Размеры геномов
На Рис. 5 изображен относительные размеры геномов по группам эукариот, а архей и бактерий. Видно, что геном эукариот обычно сильно больше, а также что и разброс размера у эукариот значительнее. (при нажатии на изображение оно появится в новом окне, где можно его увеличить и расглядеть названия видов)
©Карань Анна, 2015